Feature selection for semi-supervised data analysis in decisional information systems. (Sélection de variables pour l'analyse semi-supervisées des données dans les systèmes d'Information décisionnels)
نویسنده
چکیده
Feature selection is an important task in data mining and machine learning processes. This task is well known in both supervised and unsupervised contexts. The semi-supervised feature selection is still under development and far from being mature. In general, machine learning has been well developed in order to deal with partially-labeled data. Thus, feature selection has obtained special importance in the semi-supervised context. It became more adapted with the real world applications where labeling process is costly to obtain. In this thesis, we present a literature review on semi-supervised feature selection, with regard to supervised and unsupervised contexts. The goal is to show the importance of compromising between the structure from unlabeled part of data, and the background information from their labeled part. In particular, we are interested in the so-called «small labeled-sample problem» where the difference between both data parts is very important. In order to deal with the problem of semi-supervised feature selection, we propose two groups of approaches. The first group is of «Filter» type, in which, we propose some algorithms which evaluate the relevance of features by a scoring function. In our case, this function is based on spectral-graph theory and the integration of pairwise constraints which can be extracted from the data in hand. The second group of methods is of «Embedded» type, where feature selection becomes an internal function integrated in the learning process. In order to realize embedded feature selection, we propose algorithms based on feature weighting. The proposed methods rely on constrained clustering. In this sense, we propose two visions, (1) a global vision, based on relaxed satisfaction of pairwise constraints. This is done by integrating the constraints in the objective function of the proposed clustering model; and (2) a second vision, which is local and based on strict control of constraint violation. Both vii Cette thèse est accessible à l'adresse : http://theses.insa-lyon.fr/publication/2013ISAL0015/these.pdf © [M. Hindawi], [2015], INSA Lyon, tous droits réservés
منابع مشابه
Classification automatique de courriers électroniques par des méthodes mixtes d'apprentissage
RÉSUMÉ. Les nouvelles formes de communication écrite (courriels, forums, chats, SMS, etc.) ont introduit des défis considérables pour leur traitement automatique. Ces données présentent des phénomènes linguistiques bien particuliers : messages trop courts, très bruités... Nous présentons des recherches destinées à créer des outils et des ressources génériques pour la classification de courriels...
متن کاملModélisation adaptée aux besoins utilisateurs dans le développement des systèmes d'information décisionnels
Résumé. La démocratisation des systèmes d’information décisionnels (SID) nécessite le développement de méthodes de conception. Contrairement aux modèles de systèmes d’information (SI) qui n’ont pas pour objet d’être compris par les utilisateurs, les modèles des SID doivent être exploitables par les analystes et les décideurs. Parmi les méthodes d’ingénierie des SID qui ont été proposées, rares ...
متن کاملModélisation intégrée de la dynamique des systèmes d'information décisionnels
Résumé. Les systèmes d’information décisionnels (SID) sont des systèmes d’information (SI) qui ont pour objectif de faciliter la prise de décision à partir d’information résultant de processus complexes de dérivation et de préparation des données de SI sources. Ces processus sont généralement peu modélisés et sont directement implantés avec des logiciels spécifiques au cours des projets décisio...
متن کاملRequêtes arbres régulières pour l'analyse de dépendances entre vues et mises à jour de documents XML
RÉSUMÉ. Dans ce papier nous étudions le problème classique de l’impact d’une mise à jour sur une vue, dans le cadre de données semi-structurées. Nous faisons les hypothèses suivantes: (i) le document source est modélisé par un arbre ordonné étiqueté par des symboles à arités variables, (ii) une vue V est une requête arbre dont l’évaluation sur le document source fournit la vue partielle souhait...
متن کاملAnalyzing and Evaluating Data Freshness in Data Integration Systems
Data freshness has been identified as one of the most important data quality attributes in information systems. This importance increases particularly in the context of systems composed of a large set of autonomous data sources where integrating data having different freshness may lead to semantic problems. This paper addresses the problem of evaluating data freshness in a data integration syst...
متن کامل